根據我們要做的題目,獲得的結果會是對應的訂單總金額,而訂單總金額是一個可能範圍很大的數值,也就是連續型的資料
。
數值舉例來說,也許101,000,也許120,500,也許是206,239等等,不會有一個精準的數字。
這就確定了我們將使用迴歸
類型的模型,要準備的資料,也是用於迴歸運算用的資料集
。
回歸(Regression)
是屬於「監督式學習」的一環,其中一種分類,另一個分類是分類(Classification)
,再次強調這兩者無法混著用。
再進一步細究迴歸大致在做什麼之前,先要知道一下準備的資料格式。
其實就我們平常的系統開發工作來講,資料的格式長相並不陌生,有如下圖示例:
就像DB存放的一行一行row data一樣。
不過有一格一定要放著答案
,也就是標籤(label)的欄位,其他是放入特徵值(參數)。
有標準答案的問題才能夠做監督式學習,換句話說若有標準答案就做監督式學習,或至少你要給它一個預期的答案。
在Google Vertex AI ,這類資料被分類成表格式資料
,後續會繼續延伸介紹。
收集必要數量的資料並整理好正確的格式,並知道是提供給什麼樣的訓練方式,就是準備好資料集
的概念。
從開篇以來,到目前為止,流程步驟大概如以下這樣:
決定好題目 → 確定結果資料型態 → 做成資料集 → 用資料集的資料訓練模型
接下來我們簡單介紹一下,回歸模型的訓練方式和原理。